天天看点

【转】CGI入门

原文地址:http://www.jdon.com/idea/cgi.htm

 cgi 意思为 common gateway interface, 一种基于浏览器的输入、在web服务器上运行的程序方法. cgi脚本 使你的浏览器与用户能交互,为了在数据库中寻找一个名词, 提供你写入的评论,或者从一个表单中选择几个条目并且能得到一个明确的回答. 如果你曾经遇到过在web上填表或进行搜索, 你就是用的cgi脚本. 你那时也许没有意识到,因为大部分工作是在服务器上运行的,你看到的只是结果.

  作为一个网页设计者, 你创建客户端的 cgi脚本, 服务器端的程序用来处理用户输入, 结果返回给用户.

  在这里你将学习关于cgi脚本的一切:

cgi脚本是什么?它是怎样工作的

一个cgi脚本输出象什么?

怎样用参数或无参数创建一个cgi脚本

怎样创建一个返回规定响应的cgi脚本

怎样创建一个输入表单的cgi脚本

有关在使用cgi脚本中的问题

你能在脚本中使用的cgi变量

cgi脚本是什么?

cgi脚本 怎样工作的?

一个简单的例子

我能用cgi脚本吗?

你的服务器配置允许cgi脚本吗?

你能编程吗?

你应该用什么编程语言?

你的服务器设置正确吗?

如果你的服务器不是unix系统呢?

解剖cgi脚本

输出头部

输出数据部

带阐述的脚本

传递其他信息给脚本

创建特殊的脚本输出

以装载另一个文本响应

无响应

处理表单的脚本

表单格式和表单脚本

get 和 post

url 编码

问题

cgi 变量

解码程序

uncgi

cgi-lib.pl

解码文件上传的输入

自己做

非解剖的头部脚本

总结

  cgi脚本简单地讲是个运行在web服务器上的程序, 有浏览器的输入触发. 这个脚本通常象服务器和系统中其他程序如数据库的桥梁。

  cgi 脚本难道不是一个真正的脚本?按照你的服务器的支持, 他们可能是一个编译好的程序或者批命令文件或者其他可执行的东西. 为了简单起见,我们统称他们为脚本scripts. 

  cgi 脚本是任何运行在web服务器上的程序. cgi意思是common gateway interface。

  cgi脚本是用下列两种方法使用的: 作为一个表单的action 或 作为一个页中的直接link。

  cgi脚本由服务器调用, 基于浏览器的数据输入. 其工作原理如下:

一个url指向一个cgi脚本. 一个cgi脚本的url能如普通的url一样出现,区别于.htm/.html静态ur,cgi的url是动态url。如http://xxxx.com/cgiurl

服务器cgi接收浏览器的请求, 按照那个url指向对应的脚本文件(注意文件的位置和扩展名),执行cgi脚本.

cgi脚本执行基于输入数据的操作,包括查询数据库、计算数值或调用系统中其他程序.

cgi脚本产生某种web服务器能理解的输出结果.

服务器接收来自脚本的输出并且把它传回浏览器,让用户了解处理结果。

  这里详细一步一步地解释所有有关发生的细节。 

  假设有一个html页面有一个指向cgi脚本的链接:

  这个链接指向的是一个cgi脚本,因为其中有cgi-bin的路径. 在许多服务器cgi-bin是仅能够放置cgi脚本 的目录。

  当你选择这个链接时, 你的浏览器将向www.jdon.com服务器提出请求. 服务器接收这个请求计算出url处的脚本文件名然后执行getdate这个脚本.

  这个getdate脚本, 在unix系统中执行是这样的:

  第一行是个特殊的命令,告诉unix系统这是个shell脚本; 真正逻辑是从这行开始的下一行,这个脚本做两件事:它输出行content-type: text/plain, 接着开始一个空行;第二, 它调用unix系统时间date程序, 这样输出日期和时间. 脚本执行后输出应该这样:

  这个content-type是什么东东?它是个特殊的编码,web服务器用来告诉浏览器输出这个文本是什么类型的. 这与html中content-type含义是一样的。

  这是最基本的,实际情况要复杂得多,总之可以用来理解浏览器、服务器和脚本之间是怎样工作的。

  在你使用cgi脚本之前,有两件事你也许要解决:cgi脚本 是个高级的web特性并且需要你拥有与web 服务器管理者一样棒的知识。

  肯定吗?就是做不到,学学也可以?好吧!让我们继续.

  为了能编写和运行cgi脚本, 你需要一个web服务器. 不象通常静态的html文件, 你不能在本地系统上编写或试验你的cgi脚本; 你得通过web服务器来做这个.

  但是即使你有一个web服务器, 这个服务器必须特别地为运行cgi脚本配置一下. 那意味着你所有的脚本必须放置在一个叫做cgi-bin的目录下.

  在编写cgi脚本之前, 需要询问你的服务器管理者是否允许你安装和运行cgi脚本, 并且如果可以的话,他们必须放置在哪儿?还有,你必须有个真正的web服务器,如果是ftp或gopher服务器,那你就不能用cgi.

  如果你在自己的服务器上运行, 你必须特别地创造一个叫cgi-bin的目录,并配置你的服务器认可这个目录为一个脚本目录. 也必须记住下面有关cgi脚本特点:

每个脚本是个程序, 它运行在浏览器可以请求的系统上, 执行时使用cpu时间和内存. 如果有成打上千的这些脚本同时运行,会怎样?你的系统将不忍负载直至崩溃。

如果你不仔细地编写你的cgi脚本, 你将有可能让别人通过你的cgi脚本参数进入伤害你的系统.

  初学者注意! 一般地, 你必须具备一些基本编程概念与方法。你必须有类似系统工作的经验。如果你没有这些背景, 你必须去学习,好了,费话不多说.

  你可以用你熟悉的任何语言编写cgi脚本, 只要你的脚本遵守下一节所陈列的规则即可,只要那个语言能在你的web服务器系统上运行.

  在这本学习手册中,仅用两种语言编写cgi脚本: unix shell和 perl语言. 这个shell是适合在任何相近的unix系统上运行并且容易学习, 但是处理复杂的情况就困难了. perl是免费的, 这个语言特点是稳定和强大的,类似c,但它也是较难学习的.

  为了运行任何一个cgi脚本, 不管简单或复杂的,你的服务器必须设置成能够运行他们,必须放置在一个特定的目录,必须有一个依赖你服务器设定的文件扩展名.

  如果你是租用服务器,就要是否允许运行cgi脚本.

  如果你拥有自己的服务器,检查你的服务器说明书是怎样处理cgi脚本的.

只好再找别的学习手册了。

  如果你编写它很久,克服很多警告和配置,恭喜你,你已经会些cgi脚本,并且可以在你的网页使用了. 在这一章,将学习脚本是怎样执行,你的服务器又是怎样与他们对话产生回应的。

  虽然你的cgi脚本可以让你做任何事情,但是脚本的输出还是必须有一个规定形式. 

  这个 "脚本输出" 意思是指你的脚本发回服务器的数据. 在unix系统中, 输出是发向标准输出, 服务器从那儿检测它. 在其他系统和服务器, 你的脚本输出也许不一样了. 

  首先,输出头部信息,头部是实际不是文本的一部分,是服务器与浏览器之间的信息协议,你实际看不到。 有三个类型的头部: content-type, location, 和status. content-type 是最普遍的。

  有关content-type解释可以见有关html的说明, 发出text/html特定编码如下:

  在这个例子中,输出数据的类型是text/html; 换句话说, 输出的是个html文件.

表1. 通用格式和content-types. 

html

text/html

text

text/plain

gif

p_w_picpath/gif

jpeg

p_w_picpath/jpeg

postscript

application/postscript

mpeg

video/mpeg

  注意content-type 后面必须跟一个空行. 如果你没有空行,服务器将无法搞清这个头部在哪里结束。

  你输出的数据应该符合你所规定的content-type; 如果content-type是text/html, 输出安置应该是在html. 如果content-type是p_w_picpath/gif, 输出应该是在一个二进制的gif文件.

  这是个简单的输出日期的简单脚本,这个cgi脚本还检查看看是否已经登陆到web服务器,并且报告发现了什么。

  调用代码这样:

  这是没有输入的脚本,它只运行并且返回数据.

  pinglaura脚本内容是这样::

#!/bin/sh 

echo content-type: text/html

echo "<html><head>" 

echo "<title>is laura there?</title>" 

echo "</head><body>" 

  为了测试是否已经登陆系统,用who命令(登陆名假设为lemay), 储存结果在变量ison中. 如果登陆, 变量ison将有些登录内容,否则是空的.

  试验结果及返回相应提示的脚本是这样:

  最后关闭html:

  现在你通过从命令行运行这个脚本,测试一下,你将得到一个结果说xxx未登陆你的系统,输出是这样的:

  这是输出的一个html文本,这样你的浏览器能正常显示这内容,因为它是个html文件。 

  现在将它copy到你的服务器的cgi-bin目录下,就可以从浏览器调用执行了,如果你不能访问cgi-bin目录,你必须询问你的服务器管理者,你不能理所当然地自己建立个cgi-bin目录,那没用的。 

  这个例子完整的脚本如下:

  为了传递一个参数给脚本,可以在url中使用 (?) 插入脚本名词和参数之间, 用加号(+) 表示每个单一的参数, 如:

  当服务器接收到这个请求,它传递 arg1, arg2, 和 arg3 参数给脚本. 你然后能在脚本中使用这些参数. 这个方法有时叫查询, 因为早期它用在搜索功能中.

  既然你知道怎样使用参数,让我们继续上面的例子pinglaura,通过修改这个例子我们得到下面这个脚本pinggeneric.

  我们取个不同标题:

  在上面的例子中, 下一步应该是测试我是否登陆,在这里我们用参数${1}代替我的名字lemay,  ${1}作为第一个参数, ${2}作为第二个, ${3}作为第三个.

  剩下的所有修改如下:

  好了,让我们修改html页中的连接吧!原来是这样:

  修改为通用查询功能后是这样,比如查询名字叫john的人是否登陆:

  在你的服务器上试试,看是否有结果。

  除了上面介绍的方法传递数据给脚本以外,还有第二种方法传递信息给cgi脚本. 它叫作路径信息path information, 在上面例子的问号后面的参数是因用户表单的输入而改变的. 路径信息path info用作其他信息传递给脚本,实际上,你可以用它作任何事情. 

  路径信息path information是一种不象通常参数脚本那样频繁传递信息的方法. 路径path information通常是指web服务器上的那些比如配置文件、临时文件或者被脚本因问题调用的文件等等此类文件.

  看下面一个路径信息path information例子, :

  当脚本运行时,在路径中的信息"myscript"将被放置于环境参数path_info. 你能在你的脚本内容中使用这些信息.

  比如说, 让我们假设你在多页上已有多个连接到同一个脚本. 你能用这个路径信息显示那个有链接的html文件名, 这样, 在你完成处理你的脚本之后, 当你发回一个html文件时, 你能在这个文件里包含一个链接,发回给用户其刚开始访问的那个起始页。

  你会在下一章节学到更多路径信息:有用的表单和脚本.

  现在你已经学习了诸如输出数据 如html数据 发给浏览器解释显示的数据. 但是如果你不想把脚本结果作为一个数据流形式发回浏览器,而是想把一个存在的页发回,怎么办? 如果你只是要脚本做一些事而不让任何结果回答给浏览器,怎么办? 不用担心, 这里开始解释这些情况.

  cgi输出不是非得一个数据流,有时可以响应告诉浏览器的是在服务器上的一个页面文件,为了发出这个信息,看下面的例子:

  这个location行用作通常的输出文件定位,也就是说,如果你用了location, 你就不必再用象content-type这样的数据输出(实际上,你也不能). 正如content-type, 你也必须在这一行后面跟一个空行.

  指向这个文件的路径可以是一个url或相对路径. 所有相对路径是指相对于脚本所在的位置. 例子中的final.html文本是在当前上一个目录下docs的目录下:

  你不能同时使用content-type 和 location两个输出. 比如, 如果你想输出一个标准页,但是想在这个页尾加上客户的内容, 你就得用content-type自行组建这两个部分. 注意:你可以用脚本命令打开一个当地文件作为数据直接将之输出. 

  有时对于一个cgi脚本也许一点没有输出. 有时你只是要从用户那儿收集点信息. 你就不用再调用一个新文本, 也不用输出结果或打开一个存在的文件. 在浏览器上的屏幕还是那个样子.

  很幸运, 这一切很容易. 你只要输出下面这个命令即可(后面跟一个空行):

 这个status头部提供状态码给服务器(并且也给浏览器). 特别的204将传递给浏览器,如果能识别它,它将什么也不做. 

  尽管无响应是一个官方http规定的一部分,但也并不是适合所有的浏览器,也许会产生奇怪的结果,那你要多试验试试看啦.

  今天,大多数cgi脚本是用来处理表单输入的. 这个过程大致象上面说阐述的一样,但还是有些不同,比如cgi脚本只要被调用;数据怎样从服务器被发向浏览器.

  记住, 大多数表单有两个部分: html的表单格式;处理表单数据的cgi脚本。 这个cgi脚本是使用html标签<form action=..>属性调用的.

  正如上面所说,由于表单有两个部分. action属性包含着处理表单的脚本:

 在这个表单中, 每个输入区都有一个name的属性, 用来称呼表单元素. 当这个表单数据被递交,你在action中定义的cgi脚本, 这样这些name和输入内容被作为一个数字或字符传递给脚本.

  表单从浏览器发给服务器有两种方法.  get 和 post.

  我们上面谈论的方法,实际是get,它将数据打包放置在环境变量query_string中作为url整体的一部分传递给服务器。

  post做很多类似get同样的事情, 不同的地方就是它是分离地传递数据给脚本. 你的脚本通过标准输入获取这些数据. (有些web服务器是存储在临时文件中.) 这个query_string环境变量将不再设置.

  那你用那个方法呢? post是个安全的方法, 尤其如果你的表单中有很多数据的话. 当你用get, 这个服务器就分配变量query_string给所有的表单数据, 但是这个变量可存储量是有限的. 换句话说,如果你有很多数据但是你又用get,你会丢失很多数据.

如果你用post, 你可以尽可能多地使用数据, 因为这些数据从来也不分配到一个变量里.

  url 编码是一种浏览器用来打包表单输入的格式. 浏览器从表单中获取所有的name和其中的值 ,将他们作为name/value参数编码, 移去那些不能传送的字符, 将数据排行等等,这些还取决于你用get还是post?是作为url的一部分或者分离地发给服务器? 不管哪种情况, 在服务器端的表单输入格式样子象这样:

  url编码遵循下列规则:

每对name/value由&符分开.

每对来自表单的name/value由=符分开. 如果用户没有输入值给这个name,那么这个name还是出现,只是无值(象这样 "name=").

任何特殊的字符(就是那些不是简单的七位ascii,如汉字) 将以百分符%用十六进制编码. 当然也包括象 =, &, 和 % 这些特殊的字符.

在输入区中的空格将以加号+显示.

  因为表单输入是用这个url编码传递给你的脚本的,在你用这些参数之前必须解码,因为解码是个很普遍的工作,可以有很多工具做这个工作 . 你没有必要自己写这个解码程序.

  这里介绍一个叫uncgi的解码程序, 你可以从http://www.hyperion.com/~koreth/uncgi.html. 得到原码,安装在你自己的cgi-bin目录下.

  表2 总结了环境变量. 如下

server_name

cgi脚本运行时的主机名和ip地址.

server_software

你的服务器的类型如: cern/3.0 或 ncsa/1.3.

gateway_interface

运行的cgi版本. 对于unix服务器, 这是cgi/1.1.

server_protocol

服务器运行的http协议. 这里当是http/1.0.

server_port

服务器运行的tcp口,通常web服务器是80.

request_method

post 或 get, 取决于你的表单是怎样递交的.

http_accept 

浏览器能直接接收的content-types, 可以有http accept header定义.

http_user_agent

递交表单的浏览器的名称、版本 和其他平台性的附加信息。

http_referer

递交表单的文本的 url,不是所有的浏览器都发出这个信息,不要依赖它

path_info

附加的路径信息, 由浏览器通过get方法发出.

path_translated

在path_info中系统规定的路径信息.

script_name

指向这个cgi脚本的路径, 是在url中显示的(如, /cgi-bin/thescript).

query_string

脚本参数或者表单输入项(如果是用get递交). query_string 包含url中问号后面的参数.

remote_host

递交脚本的主机名,这个值不能被设置.

remote_addr

递交脚本的主机ip地址.

remote_user

递交脚本的用户名. 如果服务器的authentication被激活,这个值可以设置。

remote_ident

如果web服务器是在ident (一种确认用户连接你的协议)运行, 递交表单的系统也在运行ident, 这个变量就含有ident返回值.

content_type

如果表单是用post递交, 这个值将是 application/x-www-form-urlencoded. 在上载文件的表单中, content-type 是个 multipart/form-data.

content_length

对于用post递交的表单, 标准输入口的字节数.

  目前有两个程序: 通用目的的uncgi, 和cgi-lib.pl, 这是个perl库,用于perl编写的cgi脚本.当然也有表单上载时可以解码的程序,不过很少。

  说明原码可以从 http://www.hyperion.com/~koreth/uncgi.html获得。

  这是由steve brenner编写的, 帮助你管理输入. 他能从get和post获取输入并且放置在一个perl列表或阵列中. 更新的版本也能处理来自表单的文件上传. 从这儿可以得到信息与原码http://www.bio.cam.ac.uk/cgi-lib. 如果你决定用perl语言处理你的表单输入,cgi-lib是个很好的库.

  为了使用cgi-lib.pl,你通常要这样写: 

#!/usr/lib/perl

  cgi-lib中尽管有很多子程序, 最重要的是readparse子程. readparse 读取输入方便地将name/value储存在一个perl阵列中. 在你的perl脚本中通常是这样调用的:

  此例中,阵列名是in, 可以随便取名的. 在表单输入解码后, 你能读取和处理这个name/value,方法是象下面这样:

  这个将显示名字name是thename的值value.

  如果你有多个用同样名字的name对, cgi-lib.pl用(\0)分隔多个名字. 这样可以正常处理你的脚本.

  基于表单的文件上传需要不同的表单输入,有一些程序可以对其进行解码。cgi-lib.pl 后来版本可以很好支持这个功能.

  找专门书籍学习吧: ftp://ds.internic.net/rfc/rfc1867.txt.

  按照本书阐述,大多数情况可以正常操作,在一些情况下不是这样的,你可以翻阅说明书了解。

  为了在cgi中完成讨论组, 我们看看叫<isindex>的搜索. 这是早期在浏览器中用来向服务器发出搜索关键字的办法,参看以前的资料。

  cgi脚本, 有时叫服务器端脚本或网关脚本。 在internet上有很多免费资源,你可以搜索下载读懂他们,当然都是英文的,如果你下决心翻译他们(可能更加强理解). 这样一举两得啊.

  注意:上述程序可以用ultra edit来编辑,注意转换unix格式 ,必须采用unix格式存盘,再上载,用telnet登陆,在命令行键入perl sample.pl,看有无bug,再 在浏览器中调用。cgi程序包括放置cgi的目录一定要改属性为777, 要写入的html文件也要改属性为777.

cgi